其他
数据集 | 三板上市公司年报2002-2023.12
一、数据集
1.1 概况
数据来源: 全国中小企业股份转让系统(https://www.neeq.com.cn/)
覆盖时间: 2002-04-02 ~ 2023-12-06
年报数量: 70838
累积挂牌数量: 13884
数据集体积: 131G
文件格式: pdf、txt、csv(csv是一个汇总文件,方便数据分析)
csv所含字段:
- code
- year
- text
500元,支持开票;加微信 372335839, 备注「姓名-学校-专业」
1.3 注意
1. 付费数据集,500元,支持开票;加微信 372335839, 备注「姓名-学校-专业」。
2. 数据是虚拟产品,一经售出,不再退还!
3. 请仔细阅读推文内容, 再加微信详谈购买事宜
二、查看数据
三板年报.csv.zip 是一个汇总的 csv 文件,特别适合进行数据分析。解压后大概 15G, 如果你的电脑内存小于32G, 推荐阅读 | 如何处理远超电脑内存的csv文件
2.1 读取数据
import pandas as pd
df = pd.read_csv('三板年报.csv.zip', compression='zip')
df.head()
2.2 记录数
len(df)
Run
70838
2.3 累计挂牌企业数量
累计挂牌企业数量
df['code'].nunique()
Run
13884
2.4 日期范围
数据集覆盖的日期范围
df['date'] = pd.to_datetime(df['date'])
#年报发布日期
print(df['date'].min())
print(df['date'].max())
Run
2002-04-02
2023-12-06
2.5 年度记录数
for year, year_df in df.groupby(df['date'].dt.year):
print(year, len(year_df))
Run
2002 5
2003 6
2004 19
2005 29
2006 33
2007 48
2008 59
2009 80
2010 90
2011 107
2012 139
2013 225
2014 732
2015 2336
2016 6874
2017 10811
2018 10948
2019 9258
2020 8400
2021 6859
2022 7019
2023 6761
import matplotlib.pyplot as plt
import matplotlib
import scienceplots
import platform
import pandas as pd
import matplotlib_inline
matplotlib_inline.backend_inline.set_matplotlib_formats('png', 'svg')
import jieba
import warnings
warnings.filterwarnings('ignore')
plt.style.use(['science', 'no-latex', 'cjk-sc-font'])
system = platform.system() # 获取操作系统类型
if system == 'Windows':
font = {'family': 'SimHei'}
elif system == 'Darwin':
font = {'family': 'Arial Unicode MS'}
else:
font = {'family': 'sans-serif'}
matplotlib.rc('font', **font) # 设置全局字体
df.groupby(df['date'].dt.year).count()['year'].plot(kind='bar', figsize=(8, 4), title='三板历年企业年报数')
三、相关代码
想用 python 对 csv、xlsx 进行分析, 要学会尽量用 pandas 写代码。以下是近期 pandas 的一些处理推文免费教程, 感兴趣的可以进去浏览浏览。
四、获取数据